Código
library(here)
library(readxl)
library(janitor)
library(tidyverse)
library(gt)
library(sampling)
library(gtsummary)
library(infer)
library(patchwork)
library(srvyr)
library(survey)
library(cardx)
library(downloadthis)
library(ggplot2)
library(sampling)
library(BalancedSampling)
library(gstat)
library(sf)
library(tmap)

i_am("cubo.qmd")

theme_gtsummary_language(
language = "es",
decimal.mark = ",",
big.mark = ".")

4.1 Muestras complejas

Las muestras complejas son una familia de muestras que tienen en común la combinación de diseños muestrales más simples como los vistos anteriormente. En general, esta combinación se produce en pasos o etapas por lo que también se los suele denominar “muestreos polietápicos”. Desde un punto de vista más práctico esta combinación suele realizar para aprovechar la posible sinergia entre los pro y contras de cada tipo de muestreo sea tanto para producir muestras más baratas (lo que suele redundar en más viabilidad) o más precisas. Desde un punto de vista más teórico las muestras complejas tienen el problema que es más difícil luego trabajar con ellas dado que es más difícil calcular los márgenes de error.

Esto último no es un problema menor. En efecto, en la historia de las técnicas de muestreo los muestristas de la segunda mitad del siglo XX ya sabían que “mezclar” diferentes tipos de muestreo clásicos en diferentes etapas tenía beneficios aunque fuera relativamente difícil estimar la magnitud específica de ese beneficio en cada caso. Esto produjo un período de la historia en donde los “muestristas” diseñaban y ejecutaban muestras complejas pero luego los analistas las trabajaban “como si” fueran alguna de las muestras simples. Esta situación creo un nicho para que surgieran conceptos como los “efectos de diseño” (design effect o deff) que facilitó durante décadas los análisis de los datos de este tipo de muestras.

La estrategia que se encuentra por detrás del concepto de efecto de diseño es relativamente simple de interpretar y de ahí su popularidad. Es un coeficiente que dice que tanto más chico o que tanto más grande es el error del diseño de la muestra comparada contra el error de una muestra con un diseño de azar simple. Esta simplicidad en su interpretación permitió dos fenómenos complementarios. Por un lado que cobre visibilidad algunos de los beneficios de las estrategias de los muestristas que insistían en la combinación de tipos de muestreos. Por otro lado, que los analistas de datos dejen de analizar esas muestras como si fueran muestras de azar simple y pasen a un estadio más realista en donde al cálculo anterior se lo ajusta por el factor “efecto de diseño”. El ideal sería que ese factor de diseño (como así también el respectivo error del azar simple) se calcule para cada variable específica que se analiza pero esto, gracias al aumento de las potencias de las computadoras y el crecimiento de programas y librerías especializadas, sólo es factible en tiempos contemporáneos. Antes, este coeficiente lo calculaba una vez del muestrista y luego se lo pasaba a quienes iban a realizar el análisis de datos (y en general estos luego lo aplicaban/extendían a todas las variables de la muestra).

El ejemplo más típico de muestra compleja quizá sea el que primero conglomera y luego realiza otro (o otros) pasos como estratificar o algún muestreo sistemático.

FALTA

Construcción de ponderadores

replicación de ponderadores

Muestras Complejas

Calibración

https://tidyclust.tidymodels.org/

4.2 Muestreo por Clusters

El muestreo por cluster es otra manera de aplicar el azar para diseñar muestras. A diferencia del muestreo estratificado en el muestreo por cluster el investigador considera a los cluster como “racimos” de casos que, de alguna manera, se encuentran cercanos geográficamente pero no necesariamente socialmente o, más en general, no son homogéneos en las variables de estudio. En efecto, la ventaja de este tipo de muestreo es que abarata costos en la ejecución de muestras espacialmente extensas. El precio que se paga es un aumento en el error standard pero, justamente, el quid de la cuestión es que en algunas situaciones el investigador necesita o prefiere la reducción de costos por lo que el precio lo paga con gusto.

que muchas veces o bien es suplantado con una mayor cantidad de casos o bien es mitigado en una etapa posterior del muestreo.

4.3 Muestreo del Cubo

Este tipo de técnica permite diseñar muestras balanceadas en el sentido que las medias muestrales de las covariables son (aproximadamente) iguales a las medias poblacionales de esas covariables. Esto, como mínimo, es una estrategia efectiva para evitar caer en el pequeño subconjunto de muestras aleatorias que son muy sesgadas (Tillé 2011, pag. 221). Cuando realizamos diseños sólo por azar tenemos chances (si bien bajas) de obtener muestras muy sesgadas. El muestreo balanceado evita esta situación y, la mayoría de las veces (aunque depende del tipo e intensidad de las covariables) suele ofrecer muestras con una mejor precisión que el azar simple.

En estos casos, si esas covariables seleccionadas están linealmente relacionadas con las variables de estudio, se obtiene un estimador más preciso de la media poblacional o el total de las variables de estudio. Si se agregan más covariables al diseño y, nuevamente, estas se encuentran linealmente relacionadas con las variables de estudio, el estimador de la media poblacional será también más preciso.

Lo anterior es un viejo un viejo desideratum de los diseños muestrales pero antes no había disponible algún algoritmo de cálculo que permitiera lo anterior de una manera generalizable y precisa (Deville y Tillé 2004). En efecto, las muestras balanceadas pueden ser vistas como un tipo de calibración que es directamente integrada en el diseño de la muestra (Tillé 2011, pag. 216).

El contexto actual de:

  1. un mayor acceso a fuentes secundarias de datos y

b) una mayor capacidad computacional,

parece ser un contexto particularmente propicio para la aplicación de este tipo de diseños porque, justamente, se trata de un diseño demandante en cuanto a datos secundarios y demandante con respecto a recursos computacionales. Antes de pasar a la aplicación con la base de escuelas vamos a considerar un ejemplo trivial con variables espaciales en donde es posible simular la linealidad de la variable de estudio con respecto a otras covariables. Esto también servirá como un anticipo para cuando intentaremos incorporar explícitamente variables espaciales (coordenadas) en la muestra.1

Supongamos una población como un bosque en donde tenemos alguna variable continua que nos interesa investigar. Pongamos además que, a efectos pedagógicos, nosotros sabemos la distribución de esa variable. Además, para forzar el pensamiento espacial, vamos a suponer que esa variable continua es un valor de la densidad de la vegetación para cada celda de una grilla de coordenadas y el valor de esa densidad lo visualizamos indicando un valor amarillo para sus valores más altos y azul para sus valores más bajos. Estas coordenadas se las puede clasificar como un valor en el eje “Hacia el Norte” y otro valor en el eje “Hacia el Este”. Estas variables espaciales van a ser las variables auxiliares que se utilizan como covariables y que necesita el diseño del cubo para funcionar. En el caso de la Figura 4.1 se observa como a medida que vamos hacia el Norte la vegetación es algo más espesa. Lo mismo puede decirse en cuanto si vamos hacia el Este. En este sentido, el valor más alto de densidad se encuentra en la intersección de los valores más altos de los ejes anteriores o, expresado de manera alternativa, en el cuadrante superior derecho de la población. Esto quiere decir que estas variables auxiliares se encuentran empíricamente relacionadas de forma lineal con el valor de la densidad de vegetación. Y por eso último, tener datos de variables auxiliares es útil para este diseño.

En la Figura 4.1 también se observan 2 muestras balanceadas de la población descrita en el párrafo anterior. Cada una de 4 casos cada una. La de la izquierda se encuentra balanceada solamente por el eje “Hacia el Este” y, acorde con esto, los casos seleccionados se esparcen de Este al Oeste. La muestra de la derecha, en cambio, se encuentra balanceada por ambos ejes por lo que la distribución de los casos seleccionados no sólo varían de Esta a Oeste sino que también lo hacen de Norte a Sur. En este sentido específico, se puede afirmar que la segunda muestra es más balanceada que la primera y, de manera intuitiva, se puede afirmar que aquella es más representativa que esta.

Figura 4.1: Muestra balanceada ‘Hacia el Este’ (E) y ‘Hacia el Este y el Norte’ (E y N)

4.4 Muestreo Cubo sobre base de establecimientos

Ahora pasaremos a aplicar este diseño a la base de escuelas que venimos trabajando. Esta vez trabajaremos con otras variables porque, precisamente, este diseño permite la introducción de una mayor cantidad de variables como información secundaria. Como en muchas otras técnicas, tener más variables no es garantía de un mejor resultado ya que la introducción de algunas variables puede ser contraproducente (Tillé 2011, pag. 222). Ese es precisamente una de la utilidades del ejemplo anterior ya que en el era fácil construir y visualizar la linealidad de la relación entre las covariables y la variable de estudio. Por esta razón, en este proceso de selección es importante recordar cual/es son los parámetros a estimar para luego, examinar cuales de las variables disponibles como información secundaria es conveniente utilizar. En este caso, nos focalizaremos en diferentes tipos de objetivos para demostrar la flexibilidad de la técnica. En primer lugar nos interesará tener una muestra de colegios y luego una de los estudiantes. Finalmente complementaremos ambos objetivos anteriores con la idea muestras bien distribuidas (well spread).

Las lista de covariables que serán incluidas serán las siguientes:

  • Matrícula

  • Secciones

  • Región

  • Ámbito

La lista anterior funciona a modo de ejemplo aunque tiene la virtud de trabajar con información secundaria casi completa ya que se trata de variables con muy baja tasa de no respuesta. En efecto, aquí usaremos las mismas tanto cuando nos interese averiguar características de los establecimientos como de los estudiantes pero un análisis más real implicaría usar un conjunto diferente para cada muestra porque las variables de estudio serán diferente dependiendo de la población que se quiera analizar.

4.4.1 Muestreo Cubo - Población Establecimientos

En esta primera aplicación del muestreo del cubo con la base de establecimientos vamos a tener como objetivo tener una muestra de la población de establecimientos y no, por ejemplo, de estudiantes. En este caso las probabilidades de inclusión son iguales para establecimiento. De todos modos, la técnica permite realizar muestras con diferentes probabilidades de inclusión.

Dicho lo anterior parece pertinente el siguiente comentario. Cuando algunos establecimientos no tienen datos en algunas de las covariables utilizadas estos no forman parte de la muestra. Si bien son pocos, esto ejemplifica algo que se había comentado cuando se vio el muestreo por azar simple. El muestreo por azar simple sólo exige una lista (y/o algún dato que permita su contacto empírico) de los miembros de la población. El método del cubo exige, además, el acceso a otras variables de la población en cuestión. Si existen casos que no tienen esa información, estos no pueden ingresar a la muestra. Esto tiene consecuencias tanto en el momento de la utilización práctica de la técnica como consecuencias pedagógicas. Aquí sólo señalaremos 2.

Como ejemplo de una consecuencia en la utilización práctica invita a pensar si se prefiere usar covariables completas (en el sentido que no tienen casos faltantes) pero con una mayor lejanía a la/s variable/s de estudio o covariables incompletas pero más fuertementes relacionadas con estas últimas.2

Ejemplo de una consecuencia pedagógica es lo siguiente. Dependiendo de que aspecto de la técnica del cubo se desea visualizar y de que opción del párrafo anterior se haya preferido, será más idóneo la elección de una determinada población o muestra contra lo cual comparar sus resultados. En este sentido, si los resultados de la técnica del cubo se comparan contra los totales poblacionales de los colegios (Tabla 3.2) es esperable que los resultados vayan a ser diferentes porque, estrictamente, la técnica del cubo se realiza sólo sobre los establecimientos que tienen la información pertinente. Lo mismo, mutatis mutandi, si se compara con la respectiva de azar simple de toda la población de colegios (Tabla 3.4). Una opción, al menos para visibilizar las ventajas de esta técnica, es comparar con la población o una muestra de azar simple de la subpoblación de los establecimientos que tienen la información secundaria. Esto cobra importancia si, por ejemplo, se prefirió utilizar una lista de covariables incompletas.

Código
levels_region = c("01", "02", "03", "04", "05", "06", "07",
                  "08", "09", "10", "11", "12", "13", "14",
                  "15", "16", "17", "18", "19", "20", "21",
                  "22", "23", "24", "25")

# Saco matrícula que es la que voy a estimar

base = read_xlsx(here("Inputs", "base_escuelas_primaria.xlsx")) |>
clean_names() |>
mutate(ambito = as_factor(ambito),
       region = as_factor(region),
       region = fct_relevel(region, levels_region))

tb = base |>
select(matricula, secciones, sondeo_primero, sondeo_segundo, matri_seccion, indice_de_vulnerabilidad, indice_presencialidad_total, jornada, ambito, region, clave) |>
#filter(matricula >= 1) |>
#filter(sondeo_primero >= 0) |>
#filter(indice_de_vulnerabilidad >= 0) |>
rowid_to_column() |>
mutate(ambito_n = case_when(
      ambito == "Urbano" ~ 1,
      ambito == "Rural Disperso" ~ 2,
      ambito == "Rural Agrupado" ~ 3)) |>
mutate(jornada = as.factor(jornada))

#cube(prob, C, eps = 1e-12)
N = nrow(tb)
n = 300
X = cbind(rep(1, times = N), 
          as.numeric(tb$matricula),
          as.numeric(tb$secciones),
        #  as.numeric(tb$matri_seccion),
         # as.numeric(tb$indice_de_vulnerabilidad), 
          as.numeric(tb$region),
          as.numeric(tb$ambito))
        #  as.numeric(tb$jornada))
pi_colegio = rep(n / N, times = N)


tb = bind_cols(tb, as.data.frame(pi_colegio)) |>
relocate("pi_colegio", .after = "rowid")

set.seed(314)

muestra_balanceada_colegios = cube(prob = pi_colegio, 
                                   x = X)

# muestra_balanceada_colegios_sampling = samplecube(pik = pi_colegio,
#                                            X = X) |>
# as.data.frame() |>
# rename(muestra = 1)

# muestra_cubo_colegios_sampling = bind_cols(tb, muestra_balanceada_colegios_sampling) |>
# filter(muestra == 1) |> # Porque la libreria sampling 
# mutate(pw = N/n,
#        fpc = sqrt((N-n)/(N-1)))

# muestra_cubo_colegios_sv_sampling = muestra_cubo_colegios_sampling |>
# as_survey_design(id = 1,
#                  weights = pw,
#                  fpc = fpc)

muestra_cubo_colegios = tb[muestra_balanceada_colegios, ] |>
mutate(pw = N/n,
       fpc = sqrt((N-n)/(N-1)))

muestra_cubo_colegios_sv = muestra_cubo_colegios |>
as_survey_design(id = 1,
                 weights = pw,
                 fpc = fpc)
Código
# Lo ordeno porque esto es necesario para la estratificación

# tb = tb |>
# arrange(ambito)
# 
# N = nrow(tb)
# n = 300
# X2 = cbind(rep(1, times = N), 
#           tb$matri_seccion, 
#           tb$sondeo_primero, 
#           tb$indice_de_vulnerabilidad)
# pi_colegio = rep(n / N, times = N)
# 
# strata = as.integer(tb$ambito_n)
# 
# muestra_bal_estratificada = 
#              cubestratified(prob = pi_colegio, 
#                             x = X,
#                             integerStrata = strata,
#                             eps = 1e-4)
Código
tbl_cubo_colegios = muestra_cubo_colegios_sv |>
tbl_svysummary(
include = c(matricula, secciones, sondeo_primero, sondeo_segundo, region, ambito),
digits = list(deff = label_style_number(digits = 3),
              sd = label_style_number(digits = 3)),
statistic = list(all_continuous() ~ "{mean} ({sd})",
                all_categorical() ~ "{p}% (n={n_unweighted})")) |>
add_ci()  |>
modify_footnote(all_stat_cols() ~ "Media (DE); % (n sin ponderar)")

tbl_cubo_colegios  
# tbl_cubo_colegios_sampling = muestra_cubo_colegios_sv_sampling |>
# tbl_svysummary(
# include = c(matricula, sondeo_primero, sondeo_segundo, region, ambito),
# digits = list(deff = label_style_number(digits = 3),
#               sd = label_style_number(digits = 3)),
# statistic = list(all_continuous() ~ "{mean} ({sd})",
#                 all_categorical() ~ "{p}% (n={n_unweighted})")) |>
# add_ci()  |>
# modify_footnote(all_stat_cols() ~ "Media (DE); % (n sin ponderar)")
# 
# tbl_cubo_colegios_sampling  
  

 tbl_azar_simple = read_rds(here("Outputs", "tbl_azar_simple.rds"))
 tbl_pob_param = read_rds(here("Outputs", "tbl_pob_param.rds"))
# tbl_summary(include = c(region, matricula, secciones, ambito),
#             statistic = list(
#       all_continuous() ~ "{mean} ({p25}, {p75})",
#       all_categorical() ~ "{p}% ({n})"))
# 
# 
# 
tbl_merge(
   tbls = list(tbl_cubo_colegios, tbl_azar_simple, tbl_pob_param),
   tab_spanner = c("**Cubo Colegios**", "**Azar Simple**", "**Pob. Colegios**")
 )
Tabla 4.1: Estimaciones con muestra balanceada para colegios
Característica N = 4.1681 95% CI2
matricula 264 (259) 259, 270
    Desconocido 14
secciones 11 (9) 11, 11
    Desconocido 14
sondeo_primero 58 (16) 58, 59
    Desconocido 570
sondeo_segundo 69 (16) 69, 69
    Desconocido 584
region

    01 5,0% (n=15) 4,5%, 5,5%
    02 4,3% (n=13) 3,9%, 4,8%
    03 4,0% (n=12) 3,6%, 4,4%
    04 6,0% (n=18) 5,5%, 6,5%
    05 3,0% (n=9) 2,7%, 3,4%
    06 3,0% (n=9) 2,7%, 3,4%
    07 3,3% (n=10) 3,0%, 3,7%
    08 3,7% (n=11) 3,3%, 4,1%
    09 4,3% (n=13) 3,9%, 4,8%
    10 6,0% (n=18) 5,5%, 6,5%
    11 6,0% (n=18) 5,5%, 6,5%
    12 4,3% (n=13) 3,9%, 4,8%
    13 2,3% (n=7) 2,0%, 2,7%
    14 5,3% (n=16) 4,9%, 5,8%
    15 5,3% (n=16) 4,9%, 5,8%
    16 3,7% (n=11) 3,3%, 4,1%
    17 4,0% (n=12) 3,6%, 4,4%
    18 2,7% (n=8) 2,3%, 3,0%
    19 4,3% (n=13) 3,9%, 4,8%
    20 4,0% (n=12) 3,6%, 4,4%
    21 2,3% (n=7) 2,0%, 2,7%
    22 4,0% (n=12) 3,6%, 4,4%
    23 3,3% (n=10) 3,0%, 3,7%
    24 3,3% (n=10) 3,0%, 3,7%
    25 2,3% (n=7) 2,0%, 2,7%
ambito

    Urbano 64% (n=192) 63%, 65%
    Rural Disperso 28% (n=84) 27%, 29%
    Rural Agrupado 8,0% (n=24) 7,4%, 8,6%
1 Media (DE); % (n sin ponderar)
2 CI = Intervalo de confianza
Característica
Cubo Colegios
Azar Simple
Pob. Colegios
N = 4.1681 95% CI2 N = 4.1683 95% CI2 N = 4.1684
matricula 264 (259) 259, 270 277 (264) 271, 282 268 (262)
    Desconocido 14


9
secciones 11 (9) 11, 11 12 (9) 11, 12 11 (9)
    Desconocido 14


9
sondeo_primero 58 (16) 58, 59 56 (15) 56, 57 57 (16)
    Desconocido 570
472
560
sondeo_segundo 69 (16) 69, 69 70 (15) 69, 70 70 (15)
    Desconocido 584
556
570
region




    01 5,0% (n=15) 4,5%, 5,5% 2,3% (n=7) 2,0%, 2,7% 4,5% (189)
    02 4,3% (n=13) 3,9%, 4,8% 6,3% (n=19) 5,8%, 6,9% 5,4% (223)
    03 4,0% (n=12) 3,6%, 4,4% 5,3% (n=16) 4,9%, 5,8% 5,0% (210)
    04 6,0% (n=18) 5,5%, 6,5% 7,0% (n=21) 6,5%, 7,6% 5,1% (213)
    05 3,0% (n=9) 2,7%, 3,4% 2,7% (n=8) 2,3%, 3,0% 4,7% (194)
    06 3,0% (n=9) 2,7%, 3,4% 3,7% (n=11) 3,3%, 4,1% 3,6% (148)
    07 3,3% (n=10) 3,0%, 3,7% 3,7% (n=11) 3,3%, 4,1% 3,3% (138)
    08 3,7% (n=11) 3,3%, 4,1% 5,3% (n=16) 4,9%, 5,8% 3,6% (149)
    09 4,3% (n=13) 3,9%, 4,8% 6,7% (n=20) 6,1%, 7,2% 4,9% (205)
    10 6,0% (n=18) 5,5%, 6,5% 6,7% (n=20) 6,1%, 7,2% 5,4% (224)
    11 6,0% (n=18) 5,5%, 6,5% 4,3% (n=13) 3,9%, 4,8% 4,0% (166)
    12 4,3% (n=13) 3,9%, 4,8% 2,3% (n=7) 2,0%, 2,7% 3,7% (155)
    13 2,3% (n=7) 2,0%, 2,7% 2,7% (n=8) 2,3%, 3,0% 3,1% (131)
    14 5,3% (n=16) 4,9%, 5,8% 4,0% (n=12) 3,6%, 4,4% 4,1% (169)
    15 5,3% (n=16) 4,9%, 5,8% 3,3% (n=10) 3,0%, 3,7% 4,2% (174)
    16 3,7% (n=11) 3,3%, 4,1% 2,0% (n=6) 1,7%, 2,3% 3,0% (125)
    17 4,0% (n=12) 3,6%, 4,4% 3,3% (n=10) 3,0%, 3,7% 3,2% (133)
    18 2,7% (n=8) 2,3%, 3,0% 3,0% (n=9) 2,7%, 3,4% 3,8% (160)
    19 4,3% (n=13) 3,9%, 4,8% 2,7% (n=8) 2,3%, 3,0% 2,8% (118)
    20 4,0% (n=12) 3,6%, 4,4% 3,7% (n=11) 3,3%, 4,1% 3,8% (159)
    21 2,3% (n=7) 2,0%, 2,7% 2,0% (n=6) 1,7%, 2,3% 2,8% (117)
    22 4,0% (n=12) 3,6%, 4,4% 4,0% (n=12) 3,6%, 4,4% 3,7% (153)
    23 3,3% (n=10) 3,0%, 3,7% 4,7% (n=14) 4,2%, 5,1% 3,7% (153)
    24 3,3% (n=10) 3,0%, 3,7% 3,0% (n=9) 2,7%, 3,4% 4,7% (196)
    25 2,3% (n=7) 2,0%, 2,7% 5,3% (n=16) 4,9%, 5,8% 4,0% (166)
ambito




    Urbano 64% (n=192) 63%, 65% 67% (n=201) 66%, 68% 65% (2.727)
    Rural Disperso 28% (n=84) 27%, 29% 20% (n=61) 19%, 21% 26% (1.073)
    Rural Agrupado 8,0% (n=24) 7,4%, 8,6% 13% (n=38) 12%, 13% 8,8% (368)
1 Media (DE); % (n sin ponderar)
2 CI = Intervalo de confianza
3 Media (DE); % (n=n (unweighted))
4 Media (DE); % (n)

4.4.2 Muestreo Cubo - Población Estudiantes

En esta pequeña sección queremos observar la flexibilidad de la técnica del cubo obteniendo una muestra en donde las probabilidades de inclusión son diferentes. En este caso particular serán diferentes pero proporcionales al tamaño de la matrícula. Como vimos con anterioridad, esto produce que los establecimientos con mayor matrícula tengan una mayor chance de ser incluidos en la muestra.

Código
tb = tb |>
filter(matricula >= 1)

pi_matricula = inclusionprobabilities(tb$matricula, n)

tb = bind_cols(tb, as.data.frame(pi_matricula)) |>
relocate("pi_matricula", .after = "rowid")

N = nrow(tb)
n = 300
X = cbind(rep(1, times = N), 
          as.numeric(tb$matricula),
          as.numeric(tb$secciones),
        #  as.numeric(tb$matri_seccion),
         # as.numeric(tb$indice_de_vulnerabilidad), 
          as.numeric(tb$region),
          as.numeric(tb$ambito))
        #  as.numeric(tb$jornada))
  
set.seed(314)

muestra_balanceada_matricula = cube(prob = pi_matricula, 
                                    x = X)

muestra_cubo_matricula = tb[muestra_balanceada_matricula, ] |>
mutate(fpc = sqrt((N-n)/(N-1)),
       pw = N / n)

muestra_cubo_matricula_sv = muestra_cubo_matricula |>
as_survey_design(id = 1,
                 weights = pw,
                # strata = ambito,
                # fpc = fpc,
                 pps = "brewer")
Código
tbl_cubo_matricula = muestra_cubo_matricula_sv |>
tbl_svysummary(
include = c(matricula, secciones, sondeo_primero, sondeo_segundo, region, ambito),
digits = list(deff = label_style_number(digits = 3),
              sd = label_style_number(digits = 3)),
statistic = list(all_continuous() ~ "{mean} ({sd})",
                all_categorical() ~ "{p}% (n={n_unweighted})")) |>
add_ci()  |>
modify_footnote(all_stat_cols() ~ "Media (DE); % (n sin ponderar)")

tbl_cubo_matricula  
Tabla 4.2: Estimaciones con muestra balanceada para población de estudiantes
Característica N = 3.7711 95% CI2
matricula 524 (278) 491, 557
secciones 20 (8) 19, 21
sondeo_primero 54 (12) 52, 55
    Desconocido 55
sondeo_segundo 67 (12) 65, 68
    Desconocido 97
region

    01 6,3% (n=17) 3,9%, 9,9%
    02 8,1% (n=22) 5,4%, 12%
    03 7,0% (n=19) 4,5%, 11%
    04 8,5% (n=23) 5,7%, 12%
    05 9,9% (n=27) 6,9%, 14%
    06 4,8% (n=13) 2,8%, 8,1%
    07 4,8% (n=13) 2,8%, 8,1%
    08 4,0% (n=11) 2,2%, 7,2%
    09 11% (n=29) 7,5%, 15%
    10 2,9% (n=8) 1,5%, 5,8%
    11 9,2% (n=25) 6,3%, 13%
    12 0,7% (n=2) 0,18%, 2,9%
    13 1,1% (n=3) 0,35%, 3,4%
    14 1,8% (n=5) 0,76%, 4,4%
    15 2,2% (n=6) 0,99%, 4,8%
    16 1,1% (n=3) 0,35%, 3,4%
    17 1,8% (n=5) 0,76%, 4,4%
    18 2,2% (n=6) 0,99%, 4,8%
    19 3,7% (n=10) 2,0%, 6,7%
    20 1,5% (n=4) 0,55%, 3,9%
    21 0,4% (n=1) 0,05%, 2,6%
    22 2,6% (n=7) 1,2%, 5,3%
    23 0,7% (n=2) 0,18%, 2,9%
    24 1,1% (n=3) 0,35%, 3,4%
    25 2,9% (n=8) 1,5%, 5,8%
ambito

    Urbano 94% (n=256) 91%, 96%
    Rural Disperso 3,7% (n=10) 2,0%, 6,7%
    Rural Agrupado 2,2% (n=6) 0,99%, 4,8%
1 Media (DE); % (n sin ponderar)
2 CI = Intervalo de confianza
Código
tbl_pps = read_rds(here("Outputs", "tbl_pps.rds"))

 tbl_merge(
   tbls = list(tbl_cubo_matricula, tbl_pps),
   tab_spanner = c("**Cubo Matrícula**", "**PPS**")
 )
Tabla 4.3
Característica
Cubo Matrícula
PPS
N = 3.7711 95% CI2 N = 4.0123 95% CI2
matricula 524 (278) 491, 557 278 (265) 185, 371
secciones 20 (8) 19, 21 12 (9) 8,1, 15
sondeo_primero 54 (12) 52, 55 59 (20) 47, 70
    Desconocido 55
153
sondeo_segundo 67 (12) 65, 68 74 (16) 68, 81
    Desconocido 97
678
region



    01 6,3% (n=17) 3,9%, 9,9% 4,7% (n=19) 2,5%, 8,7%
    02 8,1% (n=22) 5,4%, 12% 4,5% (n=21) 2,6%, 7,7%
    03 7,0% (n=19) 4,5%, 11% 5,5% (n=29) 3,3%, 9,0%
    04 8,5% (n=23) 5,7%, 12% 7,6% (n=41) 4,7%, 12%
    05 9,9% (n=27) 6,9%, 14% 3,4% (n=21) 1,9%, 5,7%
    06 4,8% (n=13) 2,8%, 8,1% 3,3% (n=11) 1,7%, 6,6%
    07 4,8% (n=13) 2,8%, 8,1% 2,6% (n=8) 1,1%, 5,9%
    08 4,0% (n=11) 2,2%, 7,2% 2,8% (n=17) 1,6%, 5,0%
    09 11% (n=29) 7,5%, 15% 4,9% (n=34) 3,0%, 7,8%
    10 2,9% (n=8) 1,5%, 5,8% 4,1% (n=15) 2,1%, 7,8%
    11 9,2% (n=25) 6,3%, 13% 3,6% (n=15) 1,7%, 7,4%
    12 0,7% (n=2) 0,18%, 2,9% 3,5% (n=6) 1,1%, 11%
    13 1,1% (n=3) 0,35%, 3,4% 3,9% (n=4) 0,97%, 14%
    14 1,8% (n=5) 0,76%, 4,4% 2,3% (n=9) 1,1%, 4,7%
    15 2,2% (n=6) 0,99%, 4,8% 3,4% (n=7) 1,2%, 8,9%
    16 1,1% (n=3) 0,35%, 3,4% 0% (n=0) 0,00%, 0,00%
    17 1,8% (n=5) 0,76%, 4,4% 1,3% (n=2) 0,29%, 5,2%
    18 2,2% (n=6) 0,99%, 4,8% 15% (n=11) 3,8%, 42%
    19 3,7% (n=10) 2,0%, 6,7% 1,2% (n=4) 0,41%, 3,6%
    20 1,5% (n=4) 0,55%, 3,9% 1,6% (n=4) 0,44%, 5,4%
    21 0,4% (n=1) 0,05%, 2,6% 1,7% (n=4) 0,49%, 5,5%
    22 2,6% (n=7) 1,2%, 5,3% 1,6% (n=7) 0,71%, 3,5%
    23 0,7% (n=2) 0,18%, 2,9% 3,9% (n=4) 1,1%, 13%
    24 1,1% (n=3) 0,35%, 3,4% 0,4% (n=2) 0,11%, 1,7%
    25 2,9% (n=8) 1,5%, 5,8% 14% (n=5) 2,4%, 52%
ambito



    Urbano 94% (n=256) 91%, 96% 62% (n=286) 40%, 80%
    Rural Disperso 3,7% (n=10) 2,0%, 6,7% 25% (n=5) 8,3%, 56%
    Rural Agrupado 2,2% (n=6) 0,99%, 4,8% 13% (n=9) 5,9%, 25%
1 Media (DE); % (n sin ponderar)
2 CI = Intervalo de confianza
3 Media (DE); % (n=n (unweighted))

4.5 Muestreos bien distribuidos

Como se dijo en la Sección 4.3 en los muestreos balanceados por el método del cubo el esfuerzo está en que los valores de la tendencia central de los estimadores de determinadas variables de la muestra se acerquen a los valores de las covariables existentes como información secundaria, esto es, a los parámetros conocidos de la población. En el muestreo bien extendido (well spread) es objetivo es similar pero con una restricción adicional que implica que la distribución de la/s covariable/s de la muestra se acerque a la distribución de la/s covariable/s en la población. El precio de esta mejora es que se debe conocer la distribución de esas variables en la población algo que nunca habían requerido los diseños anteriores. En el caso particular de la distribución espacial el diseño exige la introducción de las coordenadas de cada miembro de la población y no solo el promedio poblacional de ellas.

En este contexto cobra importancia el ejemplo inicial de la Sección 4.3 en donde se usaron covariables espaciales. Allí, de manera intuitiva, se asoció que una muestra bien distribuida es una muestra balanceada. Esta afirmación, útil como un primera aproximación, es verdadera pero su inversa no. En otras palabras, toda muestra balanceada no es bien distribuida, pero toda muestra bien distribuida sí es una muestra balanceada.

A continuación trabajaremos con los misma muestra balanceada de colegios de la sección anterior pero le agregaremos la condición de que esa muestra también sea bien distribuida en los valores de las coordenadas geográficas. Para eso primero agregaremos las coordenadas a la base de los establecimientos.

Código
coordenadas = read_xlsx(here("Inputs", "Nómina de establecimientos 20241020.xlsx")) |>
select(latitud, longitud, clave)
Código
tb = tb |>
left_join(coordenadas, by = "clave") |>
filter(!is.na(latitud))|>
filter(!is.na(longitud))

Agregadas las coordenadas ahora se puede aplicar la técnica del cubo con el adicional que el balanceo no sólo se realice por los valores de tendencia central de la sección anterior, sino también con los valores de dispersión de las coordenadas de los establecimientos.

En cierto sentido, la inclusión de las variables “Ámbito” y “Región” en el diseño balanceado (Sección 4.4.1) ya mejoraban la distribución geográfica o espacial de la muestra (con respecto a una muestra de azar simple) pero lo hacían focalizándonse en sus valores de tendencia central. Los valores de las coordenadas permiten una información de un grano más fino sobre la distribución espacial de la muestra. En efecto, al usarse esta última información en un diseño bien distribuido se aprecia una leve mejora en los valores que tienen una fuerte influencia espacial (p.e “Ambito” y “Región”).

Código
N = nrow(tb)
n = 300
X = cbind(rep(1, times = N), 
          as.numeric(tb$matricula),
          as.numeric(tb$secciones),
        #  as.numeric(tb$matri_seccion),
         # as.numeric(tb$indice_de_vulnerabilidad), 
          as.numeric(tb$region),
          as.numeric(tb$ambito))
        #  as.numeric(tb$jornada))
pi_colegio = rep(n / N, times = N)

xy = cbind(tb$latitud, tb$longitud)

set.seed(314)

muestra_weel_spread = lcube(Xbal = X, 
                            Xspread = xy , 
                            prob = pi_colegio)

muestra_well_spread = tb[muestra_weel_spread,] |>
mutate(pw = N/n,
       fpc = sqrt((N-n)/(N-1)))

muestra_well_spread_sv = muestra_well_spread |>
as_survey_design(id = 1,
                 weights = pw,
                 fpc = fpc)

write_rds(muestra_well_spread_sv,
          here("Outputs", "muestra_well_spread_sv.rds"))
Código
tbl_well_spread = muestra_well_spread_sv |>
tbl_svysummary(
include = c(matricula, secciones, sondeo_primero, sondeo_segundo, region, ambito),
digits = list(deff = label_style_number(digits = 3),
              sd = label_style_number(digits = 3)),
statistic = list(all_continuous() ~ "{mean} ({mean.std.error})",
                all_categorical() ~ "{p}% (n={n_unweighted})")) |>
add_ci()  |>
modify_footnote(all_stat_cols() ~ "Media (DE); % (n sin ponderar)")

write_rds(tbl_well_spread,
          here("Outputs", "tbl_well_spread.rds"))

tbl_merge(
   tbls = list(tbl_well_spread, tbl_cubo_colegios, tbl_pob_param),
   tab_spanner = c("**Well Spread**", "**Cubo colegios**", "**Pob. Colegios**")
 )  
Característica
Well Spread
Cubo colegios
Pob. Colegios
N = 4.1561 95% CI2 N = 4.1681 95% CI2 N = 4.1683
matricula 252 (3) 246, 257 264 (259) 259, 270 268 (262)
    Desconocido

14
9
secciones 10 (0) 10, 11 11 (9) 11, 11 11 (9)
    Desconocido

14
9
sondeo_primero 58 (0) 57, 58 58 (16) 58, 59 57 (16)
    Desconocido 596
570
560
sondeo_segundo 68 (0) 68, 68 69 (16) 69, 69 70 (15)
    Desconocido 568
584
570
region




    01 4,3% (n=13) 3,9%, 4,8% 5,0% (n=15) 4,5%, 5,5% 4,5% (189)
    02 5,7% (n=17) 5,2%, 6,2% 4,3% (n=13) 3,9%, 4,8% 5,4% (223)
    03 5,0% (n=15) 4,5%, 5,5% 4,0% (n=12) 3,6%, 4,4% 5,0% (210)
    04 5,3% (n=16) 4,9%, 5,8% 6,0% (n=18) 5,5%, 6,5% 5,1% (213)
    05 4,7% (n=14) 4,2%, 5,1% 3,0% (n=9) 2,7%, 3,4% 4,7% (194)
    06 3,7% (n=11) 3,3%, 4,1% 3,0% (n=9) 2,7%, 3,4% 3,6% (148)
    07 2,7% (n=8) 2,3%, 3,0% 3,3% (n=10) 3,0%, 3,7% 3,3% (138)
    08 4,7% (n=14) 4,2%, 5,1% 3,7% (n=11) 3,3%, 4,1% 3,6% (149)
    09 5,0% (n=15) 4,5%, 5,5% 4,3% (n=13) 3,9%, 4,8% 4,9% (205)
    10 4,3% (n=13) 3,9%, 4,8% 6,0% (n=18) 5,5%, 6,5% 5,4% (224)
    11 4,7% (n=14) 4,2%, 5,1% 6,0% (n=18) 5,5%, 6,5% 4,0% (166)
    12 3,7% (n=11) 3,3%, 4,1% 4,3% (n=13) 3,9%, 4,8% 3,7% (155)
    13 3,0% (n=9) 2,6%, 3,4% 2,3% (n=7) 2,0%, 2,7% 3,1% (131)
    14 3,7% (n=11) 3,3%, 4,1% 5,3% (n=16) 4,9%, 5,8% 4,1% (169)
    15 3,7% (n=11) 3,3%, 4,1% 5,3% (n=16) 4,9%, 5,8% 4,2% (174)
    16 2,7% (n=8) 2,3%, 3,0% 3,7% (n=11) 3,3%, 4,1% 3,0% (125)
    17 3,0% (n=9) 2,6%, 3,4% 4,0% (n=12) 3,6%, 4,4% 3,2% (133)
    18 3,7% (n=11) 3,3%, 4,1% 2,7% (n=8) 2,3%, 3,0% 3,8% (160)
    19 2,7% (n=8) 2,3%, 3,0% 4,3% (n=13) 3,9%, 4,8% 2,8% (118)
    20 4,0% (n=12) 3,6%, 4,4% 4,0% (n=12) 3,6%, 4,4% 3,8% (159)
    21 2,7% (n=8) 2,3%, 3,0% 2,3% (n=7) 2,0%, 2,7% 2,8% (117)
    22 4,0% (n=12) 3,6%, 4,4% 4,0% (n=12) 3,6%, 4,4% 3,7% (153)
    23 3,7% (n=11) 3,3%, 4,1% 3,3% (n=10) 3,0%, 3,7% 3,7% (153)
    24 5,0% (n=15) 4,5%, 5,5% 3,3% (n=10) 3,0%, 3,7% 4,7% (196)
    25 4,7% (n=14) 4,2%, 5,1% 2,3% (n=7) 2,0%, 2,7% 4,0% (166)
ambito




    Urbano 67% (n=202) 66%, 68% 64% (n=192) 63%, 65% 65% (2.727)
    Rural Disperso 24% (n=72) 23%, 25% 28% (n=84) 27%, 29% 26% (1.073)
    Rural Agrupado 8,7% (n=26) 8,1%, 9,3% 8,0% (n=24) 7,4%, 8,6% 8,8% (368)
1 Media (DE); % (n sin ponderar)
2 CI = Intervalo de confianza
3 Media (DE); % (n)

En ciencias sociales, la mejora de la distribución espacial de una muestra no es un mejora cualquiera. Es una mejora muy interesante porque también ayuda a controlar, una serie de otras variables que se pueden presumir asociadas al espacio pero no fácilmente accesibles de forma empírica o, por lo menos, no accesible en términos de parámetros poblacionales para el momento del diseño de una muestra. Expresado en jerga metodológica, este tipo de mejoras ayudan a controlar una serie de variables extrañas haciendo que dejen de ser variables perturbadoras (Kish 1987).

De todos modos, en este caso particular es razonable suponer que la ubicación de los establecimientos guarda relación con la ubicación de los estudiantes y, más en general, con la distribución de las personas.

Código
tb = tb |>
st_as_sf(coords = c("longitud", "latitud"),
         dim = "XY",
         sf_column_name = "geom_escuela",
         crs = 4326)

muestra_well_spread = muestra_well_spread |>
st_as_sf(coords = c("longitud", "latitud"),
         dim = "XY",
         sf_column_name = "geom_escuela",
         crs = 4326)

tmap_mode("view")

fig_well_spread = tm_basemap(server = "CartoDB.Positron",
           alpha = 0.5) +
tm_shape(tb,
         name = "Población") +
tm_dots(fill_alpha = 0.20,
        fill = "black") +
tm_shape(muestra_well_spread,
         name = "Muestra well spread") +
tm_dots(fill_alpha = 0.9,
        fill = "blue")

fig_well_spread 
Figura 4.2

  1. El mismo fue adaptado del libro “Spatial sampling with R” (Brus 2022).↩︎

  2. Por ejemplo, las variables “sondeo_primero” y “sondeo_segundo” podrían ser opciones como covariablesc (siempre igual dependiendo que se quiera investigar) pero tienen una alta tasa de no respuesta (+ de 550 casos). Para peor, al menos desde el punto de vista de la población de los establecimientos, estas no respuestas se concentran en establecimientos con una matrícula de menos de 10 estudiantes. Esto genera un problema muestral porque los casos que integran la muestra (p.e. Ambito Urbano) son diferentes a los que no integran (p.e. Ambitos Rurales). En otras palabras, la no respuesta no es aleatoria.↩︎